iT邦幫忙

2024 iThome 鐵人賽

DAY 4
0

在後續的網頁爬蟲中,我利用 Ensembl Gene ID 作為數據的基礎,因此我需要先將從 NCBI GEO 下載的基因 Symbol ID 進行轉換。

轉換過程介紹

在生物訊息學研究中,基因代號轉換是一個常見的需求。我利用 Ensembl 的 BioMart API,透過 Python 的 BioMart 庫,將基因的 Symbol ID 轉換為 Ensembl Gene ID。Ensembl BioMart 是一個生物數據庫系統,可以查詢多種基因數據,包括位置訊息、功能註解和表現量等,而我主要使用它來進行基因代號的轉換。

首先,我需要連接 Ensembl BioMart 服務器,並選擇適合的數據庫(人類基因數據庫)。以下是建立連接的 Code:

from biomart import BiomartServer
# 這邊要連接 Ensembl BioMart 服務器
server = BiomartServer("http://www.ensembl.org/biomart") 
# 以下為選擇基因數據庫
mart = server.datasets['hsapiens_gene_ensembl']

在上面這段 Code 中,我先使用 BiomartServer 連接到 Ensembl BioMart 服務器;然後我選擇人類基因數據庫 hsapiens_gene_ensembl,這個數據集包含了人類的所有基因訊息。

接下來準備進行基因代號轉換,這邊我需要設置過濾條件和查詢的屬性;具體來說就是根據 HGNC_symbol(即基因的 Symbol ID)來查詢對應的 Ensembl_gene_id,這是 Ensembl 的基因代號。下面是設置過濾條件和查詢屬性的 Code:

response = mart.search({
    'filters': {'hgnc_symbol': gene_symbols},  # 根據 Gene Symbol ID 過濾
    'attributes': ['hgnc_symbol', 'ensembl_gene_id']  # 查詢屬性
})

在上面這段 Code 中設置了查詢的過濾條件,也就是基因的 Symbol ID;然後我指定查詢的屬性為 hgnc_symbolensembl_gene_id,這樣我們就能夠獲取到每個 Symbol ID 對應的 Ensembl Gene ID。

這些準備工作完成後,我將在明日執行實際的轉換操作,並將轉換結果保存下來。


上一篇
Day3:讀取 Excel 文件與提取基因代號
下一篇
Day5:執行基因代號轉換
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言